智能论文笔记

Addressing Non-Intervention Challenges via Resilient Robotics utilizing a Digital Twin

Sam Harper , Shivoh Nandakumar , Daniel Mitchell , Jamie Blanche , Theodore Lim , David Flynn

分类：机器人

2022-03-29

Multi-robot systems face challenges in reducing human interventions as they are often deployed in dangerous environments. It is therefore necessary to include a methodology to assess robot failure rates to reduce the requirement for costly human intervention. A solution to this problem includes robots with the ability to work together to ensure mission resilience. To prevent this intervention, robots should be able to work together to ensure mission resilience. However, robotic platforms generally lack built-in interconnectivity with other platforms from different vendors. This work aims to tackle this issue by enabling the functionality through a bidirectional digital twin. The twin enables the human operator to transmit and receive information to and from the multi-robot fleet. This digital twin considers mission resilience and autonomous and human-led decision making to enable the resilience of a multi-robot fleet. This creates the cooperation, corroboration, and collaboration of diverse robots to leverage the capability of robots and support recovery of a failed robot.

translated by 谷歌翻译

Towards Building Text-To-Speech Systems for the Next Billion Users

Gokul Karthik Kumar , Praveen S V , Pratyush Kumar , Mitesh M. Khapra , Karthik Nandakumar

分类：自然语言处理 | 机器学习

2022-11-17

Deep learning based text-to-speech (TTS) systems have been evolving rapidly with advances in model architectures, training methodologies, and generalization across speakers and languages. However, these advances have not been thoroughly investigated for Indian language speech synthesis. Such investigation is computationally expensive given the number and diversity of Indian languages, relatively lower resource availability, and the diverse set of advances in neural TTS that remain untested. In this paper, we evaluate the choice of acoustic models, vocoders, supplementary loss functions, training schedules, and speaker and language diversity for Dravidian and Indo-Aryan languages. Based on this, we identify monolingual models with FastPitch and HiFi-GAN V1, trained jointly on male and female speakers to perform the best. With this setup, we train and evaluate TTS models for 13 languages and find our models to significantly improve upon existing models in all languages as measured by mean opinion scores. We open-source all models on the Bhashini platform.

translated by 谷歌翻译

Learning an Ensemble of Deep Fingerprint Representations

Akash Godbole , Karthik Nandakumar , Anil K. Jain

分类：计算机视觉

2022-09-02

深度神经网络（DNN）在学习指纹的固定长度表示方面表现出了不可思议的希望。由于表示学习通常集中在捕获特定的先验知识（例如细节）上，因此没有普遍的表示可以全面地封装在指纹中的所有歧视性信息。在学习一系列表示的过程中可以缓解这个问题，但需要解决两个关键的挑战：（i）如何从相同的指纹图像中提取多种不同的表示？（ii）如何在匹配过程中最佳利用这些表示形式？在这项工作中，我们在输入图像的不同转换上训练多个Deepprint（一种基于DNN的指纹编码器）的多个实例，以生成指纹嵌入的集合。我们还提出了一种功能融合技术，该技术将这些多个表示形式提炼成单个嵌入，该技术忠实地捕获了合奏中存在的多样性而不会增加计算复杂性。已在五个数据库中进行了全面评估所提出的方法，这些数据库包含滚动，普通和潜在的指纹（NIST SD4，NIST SD14，NIST SD14，NIST SD27，NIST SD302和FVC2004 DB2A）和统计上的显着改进，在验证范围内已始终如一地证明以及封闭式和开放设定的标识设置。提出的方法是能够提高任何基于DNN识别系统的准确性的包装器。

translated by 谷歌翻译

Lateral Movement Detection Using User Behavioral Analysis

Deepak Kushwaha , Dhruv Nandakumar , Akshay Kakkar , Sanvi Gupta , Kevin Choi , Christopher Redino , Abdul Rahman , Sabthagiri Saravanan Chandramohan , Edward Bowen , Matthew Weeks

分类：机器学习

2022-08-29

横向移动是指威胁参与者最初访问网络的方法，然后逐步通过上述网络收集有关资产的关键数据，直到达到其攻击的最终目标。随着企业网络的复杂性和相互联系的性质的增加，横向移动侵入变得更加复杂，并且需要同样复杂的检测机制，以便在企业量表下实时实时地进行此类威胁。在本文中，作者提出了一种使用用户行为分析和机器学习的新颖，轻巧的方法，用于横向运动检测。具体而言，本文介绍了一种用于网络域特异性特征工程的新方法，该方法可以以每个用户为基础识别横向运动行为。此外，工程功能还被用于开发两个监督的机器学习模型，用于横向运动识别，这些模型在文献中显然超过了先前在文献中看到的模型，同时在具有高级失衡的数据集上保持了稳健的性能。本文介绍的模型和方法也已与安全操作员合作设计，以相关和可解释，以最大程度地发挥影响力并最大程度地减少作为网络威胁检测工具包的价值。本文的基本目标是为近实时的横向运动检测提供一种计算高效的，特定于域的方法，该检测对企业规模的数据量和类别不平衡是可解释且健壮的。

translated by 谷歌翻译

Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image Classification

Faris Almalik , Mohammad Yaqub , Karthik Nandakumar

分类：计算机视觉

2022-08-04

视觉变压器（VIT）竞争替代卷积神经网络（CNN），以完成医学成像中的各种计算机视觉任务，例如分类和分割。尽管CNN对对抗攻击的脆弱性是一个众所周知的问题，但最近的作品表明，VIT也容易受到此类攻击的影响，并且在攻击下遭受了重大的绩效退化。 VIT易于精心设计的对抗样品的脆弱性引起了人们对它们在临床环境中的安全性的严重关注。在本文中，我们提出了一种新型的自我浓缩方法，以在存在对抗性攻击的情况下增强VIT的鲁棒性。拟议的自我启发变压器（SEVIT）利用了一个事实，即通过VIT的初始块学到的特征表示相对不受对抗性扰动的影响。根据这些中间特征表示，学习多个分类器，并将这些预测与最终VIT分类器的预测相结合可以为对抗性攻击提供鲁棒性。测量各种预测之间的一致性也可以帮助检测对抗样本。对两种方式（胸部X射线和基础镜检查）进行的实验证明了SEVIT体系结构在灰色框中防御各种对抗性攻击的功效（攻击者对目标模型有充分的了解，但没有防御机制）设置。代码：https：//github.com/faresmalik/sevit

translated by 谷歌翻译

AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On Analog Compute-in-Memory Accelerator

Chuteng Zhou , Fernando Garcia Redondo , Julian Büchel , Irem Boybat , Xavier Timoneda Comas , S. R. Nandakumar , Shidhartha Das , Abu Sebastian , Manuel Le Gallo , Paul N. Whatmough

分类：机器学习

2021-11-10

IOT应用中的总是关于Tinyml的感知任务需要非常高的能量效率。模拟计算内存（CIM）使用非易失性存储器（NVM）承诺高效率，并提供自包含的片上模型存储。然而，模拟CIM推出了新的实际考虑因素，包括电导漂移，读/写噪声，固定的模数转换器增益等。必须解决这些附加约束，以实现可以通过可接受的模拟CIM部署的模型精度损失。这项工作描述了$ \ textit {analognets} $：tinyml模型用于关键字点（kws）和视觉唤醒词（VWW）的流行始终是on。模型架构专门为模拟CIM设计，我们详细介绍了一种全面的培训方法，以在推理时间内保持面对模拟非理想的精度和低精度数据转换器。我们还描述了AON-CIM，可编程，最小面积的相变存储器（PCM）模拟CIM加速器，具有新颖的层串行方法，以消除与完全流水线设计相关的复杂互连的成本。我们在校准的模拟器以及真正的硬件中评估了对校准模拟器的矛盾，并发现精度下降限制为KWS / VWW的PCM漂移（8位）24小时后的0.8 $ \％$ / 1.2 $ \％$。在14nm AON-CIM加速器上运行的analognets使用8位激活，分别使用8位激活，并增加到57.39 / 25.69个顶部/ w，以4美元$ 4 $ 57.39 / 25.69。

translated by 谷歌翻译

Dynamically Decoding Source Domain Knowledge for Domain Generalization

Cuicui Kang , Karthik Nandakumar

分类：计算机视觉

2021-10-06

优化从看不见域的样本上的分类器的性能仍然是一个具有挑战性的问题。虽然大多数关于域泛化的研究侧重于学习域名特征表示，但已经提出了多专家框架作为可能的解决方案，并且已经表现出了有希望的性能。但是，当前的多专家学习框架在推理期间未能充分利用源域知识，从而导致次优性能。在这项工作中，我们建议适应变压器，以便动态解码域泛化的源域知识。具体来说，我们将一个特定于域的本地专家域每个源域和一个域 - 不可知要素分支为查询。变压器编码器将所有域特定功能编码为内存中的源域知识。在变压器解码器中，域名忽视查询与跨关注模块中的存储器交互，并且类似于输入的域将有助于注意输出。因此，源域知识得到动态解码，以推动来自未经看不见的域的电流输入。该机制使得提出的方法能够概括到看不见的域。所提出的方法已经在域泛化领域的三个基准中进行了评估，并与最先进的方法相比，具有最佳性能。

translated by 谷歌翻译